شناسایی واژههای غیرمفهومی (رایج) در نمایه سازی خودکار مدارک فارسی
Authors
Abstract:
پژوهش حاضر با هدف شناسایی واژههای غیرمفهومی در زبان فارسی و تهـیه سیاههای از این واژهها برای نمایهسازی خودکار متنهای فارسی در رشتههای روانشناسی، علومتربیتی و کتابداری و اطلاعرسانی انجام شده است. این پژوهش با روش تحلیل محتوا صورت گرفتهاست. جامعه آماری این پژوهش را مقالههای مندرج در آخرین شماره منتشرشده در مجلههای علمی و پژوهشی ِ رشتههای علـومتربیتی، روانشناسی و کتابداری و اطلاعرسانی در سال 1385 تشکیل میدهد. نمونه شامل 63 مقاله است. گردآوری دادهها با استفاده از تفکیک واژگان به صورت ماشینی و دستی صورت گرفت. نتایج پژوهش نشان داد: 1- افعال ( معین و همراهشونده)، قیدها، ضمایر، حروف، اصوات، اعداد و علائم سجاوندی بهعنوان واژه نمایهها ظاهر نمیشوند، بنابراین، آنها را میتوان واژههای غیرمفهومی یا به اصطلاح واژههای بازدارنده تلقی کرد. 2- بدون احتساب علائم سجاوندی، در رشتة علوم تربیتی 96/39%، در رشته روانشناسی 57/38% و در رشـــته کتابداری 12/38% از حجم متون را واژههای غیرمفهومی تشکیل میدهد. 3- واژههای بازدارندة پربسامد در هرسه حوزه تقریبا مشابه است. 4- از تعداد 248552 واژه (بدون احتساب علائم سجاوندی) که پیکرة زبانی مورد مطالعه را تشکیل میداد، 97280 واژه که 94/38% کل واژهها را شامل میشود، جزء واژههای بازدارنده هستند.5- نتیجة مقایسه فهرست فارسی حاصل از پژوهش با فهرست واژههای بازدارنده انگلیسی نشان داد بین این دو فهرست به میزان 5/28% همپوشانی وجود دارد. 6. همچنین 38/20% از واژهها فاقد توزیع بسامدی یکسان در سه رشتة مورد مطالعه میباشند.
similar resources
نمایه سازی سلسله مراتبی مدارک ساخت یافته
هرروز بر تعداد مدارک ساختیافته (مانند مدارک قابل نشانهگذاری) در اینترنت اضافه میشود. این نوع مدارک ساختیافته، علاوه بر محتوای مدرک، قالب معنایی مدرک را نیز ذخیره میکنند؛ بنابراین مدرک بهصورت یک درختواره ذخیره میگردد. از طرفی با افزایش اطلاعات موجود در شبکه، تقاضا برای بازیابی اطلاعات، ...
full textمدل دو مرحله ای شکاف- گلچین برای نمایه سازی خودکار متون فارسی
Purpose: Each language has its own problems. This leads to consider appropriate models for automatic indexing of every language. These models should concern the exhaustificity and specificity of indexing. This paper aims at introduction and evaluation of a model which is suited for Persian automatic indexing. This model suggests to break the text into the particles of candidate terms and to c...
full textمروری بر نمایه سازی خودکار و نرم افزارهای رایج در تولید آن
گسترش روزافزون منابع اطلاعات علمی، باعث گرایش متخصصان اطلاعات به فشرده گویی و استفاده از راهکارهای آسان سازی جست وجوی اطلاعات شده است. در این بین، نمایه سازی یکی از باصرفه ترین راه های میانبر جهت رسیدن به اطلاعات است. در بین روش های بی شمار نمایه سازی که هریک دارای نقاط ضعف و قوت خاص خود هستند، نمایه سازی خودکار یکی از روش هایی است که علاوه بر جست وجوپذیر نمودن اطلاعات موجود، باعث افزایش توان آ...
full textامکان سنجی نمایه سازی ماشینی مدارک زبان فارسی در مرکز اطلاع رسانی جهاد کشاورزی
هدف از انجام این پژوهش بررسی فرایند نمایه سازی ماشینی و سنجش امکانات لازم برای استفاده از نمایه سازی ماشینی در مرکز اطلاع رسانی جهاد کشاورزی می باشد تا الگویی مناسب جهت استفاده از نمایه سازی ماشینی به زبان فارسی در ایران ارائه گردد. گردآوری اطلاعات به شیوه مصاحبه و استناد به مدارک موجود انجام گرفته است. از روش طراحی سیستم استفاده شده است؛ به طوریکه پس از مقایسه وضعیت کنونی نمایه سازی در مرکز مو...
full textتبیین دستوری نمایه سازی مفعول در زبان فارسی
در این مقاله ابتدا به بررسی ماهیت دستوری عناصر نمایه مفعولی در زبان فارسی خواهیم پرداخت، زیرا ساختار دستوری جمله بر اساس تلقی ما از ماهیت دستوری این عناصر، به شیوه متفاوتی تبیین میشود. پس از آن به ساخت دستوری بندهای متعدی دارای نمایه مفعولی در چارچوب دستور نقش و ارجاع نظر میافکنیم و سعی بر آن است که مطابق ادعای نظریه، ساخت نحوی این بندها مطابق با شرایط خاص زبان فارسی و بدون تحمیل مقولات خارجی...
full textMy Resources
Journal title
volume 12 issue شماره 4 (پیاپی 48)
pages 9- 36
publication date 2009-12-22
By following a journal you will be notified via email when a new issue of this journal is published.
Hosted on Doprax cloud platform doprax.com
copyright © 2015-2023